Temat Celem projektu jest zbadanie, jaki wpływ na końcowe wyniku testu ma przyjęta strategia rozwiązywania zadań przez uczniów.
Dane pochodzą z projektu PISA 2015. Zawierały 8 557 694 wierszy opisujacych czas rozwiązywania danego zadania przez danego ucznia. Dane zawierają informacje o kraju i szkole, z której pochodził uczeń, numer rozwiązywanego zestawu, typ zadania (czytanie, matematyka) oraz numer części testu, w kt órej to zadanie się znajdowało. Aby ułatwic prace nad danymi zamieniłyśmy czas podany w tysięcznych sekundy na minuty.
dane <- onlyTimingsLong
head(dane)
## Kraj Szkola Student Zestaw Czas Zadanie Pozycja Obszar
## 10737 Australia 3600001 3601769 31 195552 R219Q01 3 R
## 10742 Australia 3600001 3605983 85 143354 R219Q01 2 R
## 10747 Australia 3600001 3602143 36 206815 R219Q01 4 R
## 10759 Australia 3600002 3611016 37 117352 R219Q01 1 R
## 10787 Australia 3600003 3605314 36 174955 R219Q01 4 R
## 10794 Australia 3600003 3611875 41 1269775 R219Q01 2 R
W tabeli zostały zamieszczone dane z 58 krajów. Zadania znajdowały sie w 63 zestawach. Liczba zadan z matematyki i czytania jest różna. Ponadto jestst bardzo mało uczniów, którzy pisali jednocześnie zadania z matematyki i czytania. Liczba pozycji jest takze rożna i nie ma uczniow, którzy rozwiązywali więcej niż 2 pozycje. W danych spodziewałyśmy się znalezienia 4 pozycji, ponieważ tak skonstruowany jest test, jednak pojawia się też pozycja “-1”- być może są to dane testowe, nie jest to liczna grupa zadań (dla 4118 studentów). Jednak są uczniowie, dla których dysponujemy tylko danymi z tej pozycji. Postanowiłyśmy usunąć takie rekordy.
length(levels(as.factor(dane$Zestaw)))
## [1] 63
summary(dane$Obszar)
## M R
## 3892191 4665503
summary(dane$Pozycja)
## -1 1 2 3 4
## 30956 2173768 2061298 2167872 2123800
table(dane$Obszar,dane$Pozycja)
##
## -1 1 2 3 4
## M 16371 986204 945464 979987 964165
## R 14585 1187564 1115834 1187885 1159635
Poniżej prezentujemy, jakich danych dostyczą kraje
summary(dane$Czas)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0024 0.5973 1.1170 1.4510 1.8980 734.0000
## Liczba pozycji na studenta przy pozycjach -1,1,2,3,4
## 1 2
## 77170 299510
## Liczba pozycji na studenta przy pozycjach 1,2,3,4
## 0 1 2
## 4118 73054 299508
jest 4118 uczniów, którzy mają uzupelnioną tylko pozycję -1.
Z danych usunęłyśmy tych studentów, których suma czasu jaki poświęcili na zadania była większa niż 120 (bo tyle minut trwał test), oraz tych uczniów, którzy rozwiązali mniej niż 10 zadań. Usunęłyśmy również zadania z Pozycją -1.
## Rekordów do usunięcia z powodu za dużego czasu: 96838
## Rekordów do usunięci z powodu błędnej pozycji: 30956
## Rekordów do usunięcia z powodu małej ilości zadań: 2219
Poniżej zamieszczamy wykres średniego czasu wykonywania zadań w poszczególnych krajach w zależności od obszaru testu.
Z wykresu wyraźnie widzimy, że na zadania matematyczne uczniowie średnio poświęcali więcej czasu niż na zadania dotyczące czytania.Na poniższej mapie mamy rozróżnione kraje względem średniego czasu rozwiązywania jednego zadania. W pliku napotykamy też bardzo duże wartości czasu, które znacznie odbiegają od realiów testu.
Postanowiłyśmy zbadać średni czas rozwiązywania zadania przez przeciętnego ucznia dla każdego kraju. Poniżej wykres otrzymanych wartości dla wszystkich krajów
## Warning: Removed 347 rows containing non-finite values (stat_ydensity).
W raporcie posłużymy się danymi oczyszczonymi w fazie 1. Spróbujemy zróżnicować zachowania studentów różnych szkół w zależnosci od czasu rozwiązywania zadań w różnych pozycjach testu oraz zależnie od obszaru.
Analizując strategie uczniów, warto zbadać średni czas wykonywania zadań w każdej z pozycji zależnie od szkoły. Szybkośc rozwiązywania poszczególnych pozycji może być istotnym elementem strategii.
szkoly_pozycje <- dane %>% group_by(Kraj,Szkola,Pozycja) %>%
summarise(srednia=mean(Czas))
szer2 <- spread(szkoly_pozycje, key=Pozycja, value=srednia)
kable(head(szer2))
| Kraj | Szkola | 1 | 2 | 3 | 4 |
|---|---|---|---|---|---|
| Australia | 3600001 | 1.714738 | 1.476135 | 1.287331 | 1.073811 |
| Australia | 3600002 | 1.383775 | 1.348908 | 1.364129 | 1.297679 |
| Australia | 3600003 | 2.054243 | 1.480850 | 1.416849 | 1.435354 |
| Australia | 3600004 | 1.330350 | 1.298852 | 1.271818 | 1.368307 |
| Australia | 3600005 | 1.888812 | 1.504586 | 1.699385 | 1.903631 |
| Australia | 3600006 | 1.574090 | 1.206749 | 1.558074 | 1.370092 |
Brakujące statystyki zastąpimy średnim czasem reszty szkół. Na tak przygotowanych danych przeprowadzamy analizę hierarchiczną metodą Warda. Poniżej przedstawiamy dendrogram.
Nie jest jasne, ile grup nalezy wyróżnić. Poniżej wykresy dla podziałów na 2-9 grup zmapowanych na płaszczyznę. Rozkład punktów różni się między wykresamu, ze względów obliczeniowych (rzutowanie na płaszczyznę tylu obserwacji i zachowanie ich struktury jest trudne obliczeniowo)- są to reprezentacje najbardziej uwydatniające dany podział. Dla każdego wylosowana została reprezentatywna względem wyróżnionych grup próbka z danych, a w kolejnym kroku przeprowadzone zostało mapowanie.
Dla podziałów większych niż k=5 widać duże rozbieżności wewnątrz grup, co sugeruje, że nie są to optymalne podziały.
## Liczność poszczególnych grup
## 1 2 3 4
## 3804 4644 3070 3648
Spróbujmy rozróżnić zachowania szkół wśród wyróżnionych grup względem średniego czasu spędzanego nad zadaniem z każdej pozycji.
Na powyższych wykresach bardzo wyraźnie widać różnice między grupami. Na ich podstawie możemy nazwać zachowania poszczególnych grup szkół:
| grupa | nazwa_grupa_p |
|---|---|
| 1 | coraz szybciej |
| 2 | dość równe |
| 3 | 1 i 3 dłużej |
| 4 | dość równe-wersja szybsza |
Ciekawym jest pytanie, czy w obrębie krajów szkoły pozostają w tych samych grupach. Na poniższym wykresie widzimy, że dla krajów, które znalazły się wysoko w rankingu średnich czasów rozwiązywania wszystkich zadań przeważa grupa 4, dla krajów z końca rankingu grupa 3.
Kolejnym interesującym nas zagadnieniem była zależność czasu rozwiązywania zadań od obszarów. Szybkość rozwiazywania zadań z danego obszaru może być spowodowana systemem edukacji, jaki panuje w danym kraju i podejściem do danego obszaru w tym kraju.
szkoly_obszary<- dane %>% group_by(Kraj,Szkola,Obszar) %>%
summarise(srednia=mean(Czas))
szer3 <- spread(szkoly_obszary, key=Obszar, value=srednia)
## Source: local data frame [6 x 4]
## Groups: Kraj, Szkola [6]
##
## Kraj Szkola M R
## <fctr> <dbl> <dbl> <dbl>
## 1 Australia 3600001 1.549311 1.111412
## 2 Australia 3600002 1.594608 1.108953
## 3 Australia 3600003 1.774779 1.421931
## 4 Australia 3600004 1.542623 1.163666
## 5 Australia 3600005 1.826427 1.641145
## 6 Australia 3600006 1.570821 1.196904
W zbiorze jest 252 szkoły, dla których brakuje danych dla jednej z tych kategorii- jest to niewielka część naszego zbioru, ponadto taki brak świadczy o małej ilości danych dla takiej szkoły. Takie kraje pominiemy w naszej analizie.
Poniżej przedstawiamy dendrogram podziałów.
Wykresy podziału Szkół na grupy- ponieważ mamy tylko dwie zmienne, nie potrzebujemy mapowania na płaszczyznę.
Analiza dendrogramu i wykresów dla podziałów na 2-9 grup zmapowanych na płaszczyznę skłoniła nas do wybrania 4 grup.
## Liczności grup
## 1 2 3 4
## 5145 4247 3886 1636
Powyższe wykresy skrzypcowe potwierdzają zróżnicowanie wybranych grup pod względem średniego czasu rozwiązwywania zadań dla obszaru matematycznego i czytania. Na podstawie tych wykresów możemy nazwać zachowania poszczególnych grup szkół:
| grupa | nazwa_grupa_o |
|---|---|
| 1 | M_srednio_R_srednio |
| 2 | M_wolno_R_srednio |
| 3 | M_wolno_R_wolno |
| 4 | M_szybko_R_szybko |
Po raz kolejny warto spojrzeć jak poszczególne grupy mają się do poszczególnych krajów.
Ostateczne grupy chcemy połączyć przez przecięcie grup odpowiadających pozycjom i obszarom. Mało liczne przecięcia, tj. poniżej 1000 szkół uznamy za niepasujące do żadnego większego wzorca. Liczność przecięć przedstawia się następująco:
##
## M_srednio_R_srednio M_szybko_R_szybko
## 1 i 3 dłużej 126 10
## coraz szybciej 2243 216
## dość równe 661 7
## dość równe-wersja szybsza 2115 1403
##
## M_wolno_R_srednio M_wolno_R_wolno
## 1 i 3 dłużej 817 2034
## coraz szybciej 1127 157
## dość równe 2225 1680
## dość równe-wersja szybsza 78 15
Zgodnie z oczekiwaniami, grupy rozwiązujące zadania z M i R szybciej są grupami “przespieszającymi”.
## coraz szybciej M_srednio_R_srednio
## 2243
## coraz szybciej M_wolno_R_srednio
## 1127
## dość równe M_wolno_R_srednio
## 2225
## dość równe M_wolno_R_wolno
## 1680
## 1 i 3 dłużej M_wolno_R_srednio
## 817
## 1 i 3 dłużej M_wolno_R_wolno
## 2034
## dość równe-wersja szybsza M_srednio_R_srednio
## 2115
## dość równe-wersja szybsza M_szybko_R_szybko
## 1403
## NA's
## 1522
Widzimy, że nie ma dużej zależności między ęrednim czasem rozwiązywania całego testu, a wynikami. Są kraje, które mimo wysokiej pozycji w rankingu średnich czasów miały bardzo słabe wyniki np. Katar, oraz takie, które mimo dużych czasów rozwiazywania zadań dość dobrze wypadły w rankingu punktowym np. Estonia.
| kod_gr | grupa_nazwa |
|---|---|
| 11 | coraz szybciej M_srednio_R_srednio |
| 12 | coraz szybciej M_wolno_R_srednio |
| 22 | dość równe M_wolno_R_srednio |
| 23 | dość równe M_wolno_R_wolno |
| 32 | 1 i 3 dłużej M_wolno_R_srednio |
| 33 | 1 i 3 dłużej M_wolno_R_wolno |
| 41 | dość równe-wersja szybsza M_srednio_R_srednio |
| 44 | dość równe-wersja szybsza M_szybko_R_szybko |
| NA | NA |
Z wykresu możemy zaobserwować następujące zależności:
Strategie coraz szybciej M_srednio_R_srednio, coraz szybciej M_wolno_R_srednio i dość równe M_wolno_R_srednio (na wykresie 11,12,22) są równomiernie rozłożone we wszystkich krajach wewnątrz rankingu (bez skrajnych). Przy drugiej z wymienionych w tym paragrafie strategii obserwujemy minimalnie częstsze stosowanie w krajach z drugiej połowy rankingu.
Strategie dość równe M_wolno_R_wolno, 1 i 3 dłużej M_wolno_R_srednio(na wykresie 23, 32)są stosowane w krajach z drugiej połowy rankingu.
Strategia 1 i 3 dłużej M_wolno_R_wolno (na wykresie 33) jest stosowana zgodnie z regułą: im niżej w rankingu czasów, tym częściej.
Strategie dość równe-wersja szybsza M_srednio_R_srednio i dość równe-wersja szybsza M_szybko_R_szybko (na wykresie 41, 44)są stosowane zgodnie z regułą: im wyżej w rankingu czasów, tym częściej, przy czym dwa pierwsze kraje zdecydowanie częściej stosują drugą z wymienionych.
Grupa szkół niezaliczonych do żadnej z opisanych powyżej grup, ze względu na kraje rozkłada się dość równomiernie.
Kolejną rzeczą, którą chciałyśmy sprawdzić jest zależność średnich czasów i rozkładu wyznaczonych przez nas grup od wyników uzyskanych przez badane kraje. Na podstawie danych ze strony PISA stworzyłyśmy ranking wyników. Rozważamy tutaj sumę punktów uzyskanych w dwóch rozważanych przez nas częściach testów- Czytanie i Matematyka.
## V1 V2
## 1 Australia 997
## 2 Austria 982
## 3 Belgium 1006
## 4 Canada 1043
## 5 Chile 882
## 6 Czech Republic 979
## 7 Denmark 1011
## 8 Estonia 1039
## 9 Finland 1037
## 10 France 992
## 11 Germany 1015
## 12 Greece 921
## 13 Hungary 947
## 14 Iceland 970
## 15 Ireland 1025
## 16 Israel 949
## 17 Italy 975
## 18 Japan 1048
## 19 Korea 1041
## 20 Latvia 970
## 21 Luxembourg 967
## 22 Mexico 831
## 23 Netherlands 1015
## 24 New Zealand 1004
## 25 Norway 1015
## 26 Poland 1010
## 27 Portugal 990
## 28 Slovak Republic 928
## 29 Slovenia 1015
## 30 Spain 982
## 31 Sweden 994
## 32 Switzerland 1013
## 33 Turkey 848
## 34 United Kingdom 990
## 35 United States 967
## 39 Brazil 784
## 40 B-S-J-G (China) 1025
## 41 Bulgaria 873
## 43 Colombia 815
## 44 Costa Rica 827
## 45 Croatia 951
## 47 Dominican Republic 686
## 56 Lithuania 950
## 61 Montenegro 845
## 62 Peru 785
## 63 Qatar 804
## 66 Singapore 1099
## 67 Chinese Taipei 1039
## 68 Thailand 824
## 70 Tunisia 728
## 71 United Arab Emirates 861
## 72 Uruguay 855
Z wykresu możemy zaobserwować podobne zależności jak na wykresie z poprzedniego paragrafu, jednak bywają odstępstwa, spowodowane tym, ze niektóre kraje mimo wolniejszego rozwiązywanie zadań uzyskały wysokie wyniki. Na największą uwagę zasługują grupy:1 i 3 dłużej M_wolno_R_wolno (na wykresie 33), która zdecydowanie przeważa w krajach z niskimi wynikami, oraz dość równe-wersja szybsza M_srednio_R_srednio i dość równe-wersja szybsza M_szybko_R_szybko (na wykresie 41, 44), które ponownie wyznaczają najlepsze grupy
Nasze podejście, czyli przecięcie grup ze względu na obszary z grupami ze względu na pozycje, nie dało znaczących rezultatów. Grupy, które stworzyłyśmy to najczęściej sumy grup z poprzednich podejść.
Na podstawie przeprowadzonej analizy możemy opisać dwie najważniejsze grupy strategii rozwiązywania zadań: * Strategie wygrywające, czyli takie, które utrzymywały równe tempo rozwiązywanie zadań przez cały czas test i dobrze rozplanowały sobie czas poświęcony na jego pisanie, a część matematyczną i z czytania rozwiązywały ze średnią lub szybką prędkością * Strategia przegrywająca, czyli taka, w której uczniowie dłużej spędzali na pierwszej i trzeciej część testu, czyli źle rozplanowali czas (test odbywa się w dwóch etapach: 1 i 2 część-przerwa-3 i 4 część), a zadania matematyczne i z czytania rozwiązywali wolno.